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大 规模 知识 处 理 与 应 用 进展 
FA REH RRA Nue 


摘要 : 本 文 分 析 了 大 规模 知识 处 理 的 主要 研究 内 容 ， 包 括 知识 表示 、 知 识 获 取 和 知识 应 用 的 背景 、 研 究 现 
状 和 发 展 动态 ， 概 括 介绍 了 中 科 院 计算 所 在 基于 双 层 缺 省 罗 辑 的 知识 表示 研究 、 面 向 自由 文本 的 概念 、 关 


系 、 事 件 获取 和 验证 研究 ， 以 及 基于 大 规模 知识 库 的 企业 智能 客服 系统 的 应 用 情况 。 


关键 词 : 知识 处 到 


EA 
qu 
hills 


E] 20 世纪 


E 本 体 学 习 因果 事件 常识 知识 语义 分 析 


80 年 代 以 来 , 人 工 智能 领域 的 研究 者 经 过 了 一 系列 的 探索 , 逐渐 认识 到 知识 


对 于 智能 系统 的 重要 性 。 莱 纳 特 (Douglas B. Lenat) 等 提出 的 知识 阔 值 理论 趾 认 为 ， 一 个 系 
统 之 所 以 有 智能 是 因为 它 具 有 可 运用 的 知识 ， 智 能 行为 取决 于 知识 的 数量 及 其 一 般 化 的 程 
度 。 目 前 ， 源 于 Freebase 知识 库 的 谷歌 (Google) 知识 图 谱 已 包含 超过 2 亿 用 英文 表述 的 实 
体 和 属性 ， 成 为 支撑 其 众多 应 用 的 基础 资源 中。 


中 科 院 计算 所 智能 信息 处 理 重 点 实验 室 大 规模 知识 处 理 课题 组 所 建设 的 国家 知识 基础 


设施 (Nation Knowledge Infrastructure， 简 称 NKI〉 是 一 个 庞大 的 、 可 共享 的 知识 群体 ， 


它 有 三 个 目标 : 
植物 四、 数学 四 


一 是 建立 一 个 涉及 多 学 科 的 专业 知识 库 ， 目 前 包括 医学 上“、 军 事 吕 、 地 理 “、 
、 考 古 、 民 族 、 音 乐 、 信 息 科学 、 农 业 、 旅 游 、 金 融 等 学 科 的 专业 知识 ; 


二 是 建立 领域 无 关 知 识 以 及 常识 知识 库 ， 目 前 已 包括 概念 问 上 下 位 关系 5" HERR, 


nk 


2 


出 


部 分 整体 关系 5， 概 念 的 属性 及 属性 值 裤 ， 还 包括 因果 事件 知识 和 常识 性 知识 请 ;三 是 研 
六 持 多 种 应 用 系统 的 知识 应 用 方法 。 


在 专业 知识 库 和 领域 无 关 知 识 库 的 构建 上 , 我们 目前 的 主要 研究 方向 集中 于 基于 海量 自 


由 文本 的 本 体 学 习 和 验证 方面 ; 在 知识 的 应 用 方面 , 我 们 目前 集中 于 自然 语言 的 语义 分 析 智 
能 问答 领域 , 成 果 已 成 功 应 用 于 建设 多 个 行业 的 企业 知识 库 和 智能 客服 系统 。 本 文 ， 我 们 主 
要 从 这 两 个 方面 介绍 国内 外 研究 现状 以 及 我 们 的 进展 。 


知识 应 用 


描述 逻辑 


图 1. 大 规模 知识 处 理 研究 框架 
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大 规模 知识 处 理 与 应 


cd 


2 “大 规模 知识 处 理 国内 外 研究 现状 和 中 科 院 计算 所 研究 进展 

大 规模 知识 处 理 的 整体 研究 框架 和 我 们 的 研究 重点 如 图 1 所 示 。 

在 下 面 的 三 节 中 ， 我 们 将 分 别 介绍 知识 表示 、 知 识 获 取 和 知识 应 用 的 研究 动态 ， 以 及 我 
们 的 研究 和 应 用 进展 。 


2.1 基于 双 层 缺 省 逻辑 的 知识 表示 研究 


N 
的 知 


7 


id 


KI (H 
4t 


SZN 


ZU ERI 
3X, NKI E 


设施 ) 是 一 个 大 规模 的 本 体 知识 库 ， 本 体 


logics)、RDFVOWL?*， 以 及 缺 省 逻辑 (default logic). 


ERE 
'CATZ RII RU, Am, HEXDAMROMOEGUUR OU SATAR E 
为 了 克服 这 个 人 


种 基于 


已 类 


述 逻 辑 


ES 


念 构造 子 和 角 
个 权衡 


强 但 ] 


非 单 


jal 


WA. PE 


网 络 结构 (network structures). 的 表示 方法 ， 月 


结合 


《而 非 一 种 ) 知 


了 基于 框架 的 语言 和 基于 逻辑 的 语言 。 


色 构 造 


杂 度 高 。 


| (tradeoff): (j£ 


子 构建 复杂 概念 和 复杂 


识 表示 语言 。 描 述 罗 得 使 用 原子 概念 和 
色 。 描 述 多 和 辑 在 表达 能 力 和 推 


复杂 度 上 有 


于 实现 不 同 知识 库 之 间 
有 多 种 形式 语言 表示 , 包括 一 阶 逻辑 、 框 架 (frames)、 描述 逻辑 (description 


日 于 表示 个 体 的 集合 以 及 
EE 架 系 统 上 共有 不 同 的 行为 。 


原子 角色 通过 概 


的 描述 逻辑 表达 能 力 弱 但 推理 复杂 度 低 ， 复 杂 的 


描述 逻辑 在 OWL 中 具有 重要 应 用 0 。 


pE 


EHE TH IE SCELTEE 


调 


指 已 经 得 出 


得 出 的 结论 也 就 直 


长 多 


+ 


保证 单调 
我 们 知道 


的 结论 可 能 被 后 来 的 事实 推翻 ， 不 能 够 
”)。 例 如 ,我 们 ji GER KH. 


通常 假定 乌 是 会 


时 ， 就 应 该 取消 “Tweety 会 习 " 的 结论 。 


我 们 在 不 同 表示 之 间 的 翻译 和 缺 省 推 坦 


论 、 框 


1. 


一 阶 理 


究 包 括 : 


方面 的 下 


El (non-monotonic or defeasible reasoning ) 的 一 


LJ 


概念 图 和 描述 逻辑 具有 相同 的 表达 能 力 。 为 了 训 


和 


En 


相同 的 表达 能 力 ， 需 要 在 不 同 的 表示 之 间 进 行 转换 ， 并 且说 
(faithful) Fuy 


EHH 


种 形式 化 方法 。 
E《〈 即 “知道 的 越 多 ， 


“Tweety? 是 一 只 幼 


述 逻 辑 表达 能 力 


MA 


SEU T 


N 


FE 明 这 利 


A EuD, 


Ei 


uU 


转换 满足 忠 


4n 3j 


使 用 框 


ARTAN 


体 中 的 概念 ， 月 


mu 


ZAR 


D 的 实例 ”。 


表示 的 知识 库 ， 基 于 霍 恩 逻辑 和 
描述 逻辑 中 的 概念 之 间 上 共有 


mi 
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的 。 


是 正确 


序 的 


包含 关系 C 


HER (Hom) 逻辑 程序 作为 自动 推理 ; 


证 明 ] 


ER NA. HUS 


J BÉ 


概念 C 的 实例 ， 
出 概念 之 间 的 缺 省 包含 关系 ， 我 们 提出 了 双 层 缺 省 逻辑 和 双 层 缺 省 


XXE RU 


2.2 面向 自由 文本 的 知识 获取 和 验证 


P 


识 的 作 


H3) 


结构 化 和 半 结 构 化 语 料 更 易 志 


EF 务 也 面临 着 更 


得 、 规 模 更 大 ， 可 以 从 中 获得 更 丰富 的 知识 。 
大 的 挑战 。 


2.2.1 概念 获取 和 验证 


1 Resource Description Framework， 资 源 描述 机 
? Web Ontology Language， 网 络 本 体 语 言 ， 一 种 用 


ray 


A 


[H]ISE JA rp 


于 描述 语义 网 上 本 体 论 关系 的 语言 ， 


上 通 动画 中 的 主 


CEAROR FJL R einn 


14 


国际 组 织 W3C 1| 


对 于 


cD， 表 示 “ 如 果 x 是 概念 C 的 实例 ， 则 x 是 概念 
有 缺 省 包含 关系 CEuD ， 表 示 “ 如 果 x 是 
并 且 无 法 证 明 x 不 是 概念 D 的 实例 ， 则 x 是 概念 D 的 实例 *。 为 了 自动 


o 


取 包 括 概念 、 关 系 、 事 件 、 常 识 知识 的 获取 。 就 知识 来 源 而 言 自由 文本 语 料 较 之 
得 知 
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概念 是 知识 的 基础 元 素 之 一 , 概念 识别 是 文本 知识 获取 的 基础 工作 。 中 文 概 念 识别 和 验 
证 的 困难 在 于 : 
1. 中 文 概念 没有 句法 层 上 的 普遍 构造 规律 ， 存 在 构造 歧义 问题 。 例 如 “管理 /v 思想 /n” 
和 “管理 /v 公司 /mn”， 两 者 共有 相同 的 句法 结构 ， 但 前 者 是 指称 概念 而 后 者 是 述 谓 概 
念 ; 
2. 不 同 于 领域 术语 ， 概 念 本 身 没 有 明显 的 边界 特征 ， 在 语 料 中 也 没有 明显 的 邻接 词 特 
征 ， 因 此 难以 用 基于 边界 的 方法 进行 识别 ; 


相关 在 


汉语 分 词 、 未 登录 词 识别 、 词 性 标注 等 基 胡 


影响 概念 识别 的 效果 。 


分 词 和 标注 的 效果 对 术语 
与 汉语 相 较 ， 英 语 除了 不 存在 分 词 问题 外 ， 还 可 以 利用 词 态 在 词性 标注 


合 一 些 。 


的 效果 。 


基于 统计 方法 的 概念 识别 由 于 不 考虑 名 法、 语义 上 的 信息 ,所 以 实现 起 来 相对 比较 简单 
并 且 这 种 方法 不 局 限于 某 一 专门 领域 ， 也 不 依赖 任何 外 部 资源 。 但 是 ,这 类 工作 不 可 避免 


候选 术语 ， 
我 们 提出 了 一 种 基 了 


性 工作 的 困难 和 不 足 ， 也 在 一 定 程 度 上 


究 方法 主要 分 为 基于 语言 学 、 基 于 统计 和 两 者 混合 这 样 几 个 类 别 。 基 于 语言 学 知 
识 的 概念 识别 方法 在 准确 率 上 有 非常 明显 的 优点 , 但 事先 需要 对 语料库 进行 标注 和 分 词 ， 且 
| 取 结 果 有 很 大 的 影响 aq。 这 种 方法 可 能 对 英语 等 西方 语言 更 适 


上 得 到 更 好 


地 
在 准确 率 上 往往 难以 保 


存在 对 低频 术语 的 获取 的 困难 和 邻接 高 频 词 会 引入 噪声 等 问题 ， 
证 中。 规则 和 统计 混合 的 方法 主要 结合 上 下 文 特征 、 句 法 结构 规则 以 及 统计 信息 来 识别 


这 个 方法 越 来 越 受 到 国内 外 研究 者 的 重视 中 1。 
F 概 率 句 法 构造 模式 、 语 义 构造 模式 和 邻接 词 统计 特征 三 层 递 进 的 中 


文 概念 识别 系统 号。 首先 利用 概念 在 句法 层次 上 的 构造 规律 进行 识别 ， 对 于 在 句法 上 具有 


歧义 的 


作 X 
a^» A 


概念 ， 进 


步 根据 概念 的 邻接 词 统计 特征 进行 验 说 


步 利用 概念 的 语义 构造 规律 进行 处 理 。 对 于 这 两 种 方法 都 没有 办 法 处 理 的 
FE。 其 


， 概 念 的 语义 构造 特征 利用 了 基于 


ini 


TEE RURAL TED FO A SCREMDUSE ETT VESEUDIU, griET XCIRGEBU EAS WU VET, ix 


个 方法 可 以 达到 约 93% 的 识别 准确 


2.2.2 关 


系 和 属性 获取 和 验证 


率 ， 并 且 不 受 限 于 具体 领域 和 概念 类 型 。 


概念 间 的 主要 语义 关系 包括 上 下 位 、 部 分 -整体 、 同 指 、 地 理 位 置 等 ， 每 个 概念 也 有 其 


众多 的 属性 及 其 对 应 的 属性 值 。 从 自 
难 的 。 基 于 模式 (Pattern ) 的 语义 关系 获取 方法 近年 来 被 


| 文本 中 


动 抽取 和 验证 关系 、 属 性 、 属 性 值 是 非常 


Eg 


[25] 
, 


k 有 较 高 的 精度 。 但 


ZKH 


这 种 方法 离 不 开 人 工 编 辑 的 模式 , 并 且 获 取 的 内 容 往往 只 局 限于 句子 中 的 某 个 部 分 。 引 文 [26] 


基于 语料库 ， 使 
是 训练 和 预测 的 速度 太 慢 ， 还 不 适 于 处 理 海 量 的 数据 。 
网 络 (Web) 语 料 的 上 下 
I 用 模式 和 概念 空间 中 的 关系 验证 方法 ,从 大 规模 语 料 中 抽取 


我 


T 


在 上 下 位 关系 获取 方面 , 我 们 不 


门 已 经 进行 了 基于 


用 “ 核 ”(Kernel) 的 方法 解决 关系 


取 问 题 ， 取 得 了 较 好 的 结果 。 其 缺点 


六 、 部 分 -整体 、 同 指 关 系 获取 。 其 中 ， 


上 下 位 关系 ""。 我 们 首先 给 出 一 种 利用 词汇 -句法 模式 获取 候选 上 下 位 关系 的 方法 ， 然 后 将 


候选 上 下 位 关系 导入 概念 空间 
位 关系 所 具有 的 特征 ， 


KAH, 
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并 将 这 些 特征 以 产生 式 规则 的 形式 用 于 
们 还 设计 了 一 种 基于 概念 空间 的 启发 式 循环 迭代 验证 模型 。 


在 同 指 关 系 获取 方面 , 我 们 提 H 


， 对 概念 空间 中 概念 词 和 上 下 位 关系 进行 分 析 , 给 出 了 上 下 


上 下 位 关系 的 验证 。 据 此 , 我 


8 一 种 多 特征 约束 的 方法 ， 从 语义 受 限 的 语 料 中 获取 同 指 
方法 分 为 候选 同 指 关 系 的 提取 和 验证 两 个 阶段 。 首 先 基于 目标 词 在 语 料 中 的 分 布 


大 规模 知识 处 理 与 应 


T 


TE, JEBIE 


m 


E 离 、 模 式 同 质 和 
指标 志 词 的 语义 特征 和 同 指 关 系 的 组 织 结构 特征 ,提出 同 指 关 系 本 体 和 同 指 关 系 


RENE. 


者 结合 提出 一 种 联合 


vj 


相对 于 预定 义 的 关系 种 类 ， 开 放 的 
类 型 。 目 前， 获取 


数量 型 、 定 性 型 、 角 色 型 


三 利 


策略 验证 候选 的 同 指 关 系 。 


结构 化 数据 源 的 提取 ， 如 web AWH E, 36 
HRR pR, MH 
EREI, EFAA E EAEE A 


基 百 科 文 章 (Wikipedia Articles) ! 


针对 性 强 ， 主要 采用 弱 文 法 和 统计 的 方式 进行 提取 ， 上 其 有 较 高 的 准确 率 , 但 由 


RAR, K 


此 召回 率 普 遍 不 高 。 
起 来 获取 , 首先 从 结构 化 数据 ， 


非 结 构 化 文本 中 迭代 获取 更 多 的 属性 。 这 种 方法 相 比 单一 语 料 来 源 ， 综 合 考虑 了 准 
率 ， 但 获取 方法 相对 更 加 复 


H 


Zu 


4^? 


获取 准确 


BHE 


DA 


Ez 
ES] 


因 其 语 料 结构 ; 


并 列 分 布 三 种 策略 混合 的 方法 提取 候选 同 指 关 系 。 然 后 基 


生 值 获取 更 加 困难 。! 
属性 名 称 所 依据 的 语 料 数据 ， 主 要 包括 基于 
F 半 结构 化 的 Web 网 页 的 提取 ， 如 从 网 页 表 


文 属性 名 


图 , 再 


称 主要 包括 


且 结果 属性 的 好 坏 和 


Al 地 域 类 概念 的 获取 结果 


属性 ， 然 后 使 月 


提取 号 ， 以 及 基于 多 数据 源 的 
规整 简短 ， 具 有 一 定 的 规律 性 ， 
于 数据 源 的 规 


基于 多 数据 源 的 方法 主要 是 将 结构 化 与 非 结 构 数 据 交 叉 迭 代 


率 较 高 的 结果 作为 种 子 日 种 子 属 性 从 


RH 


MAA 


类 型 极 大 程度 上 依赖 于 种 子 。 


| 准确 率 
WE RERA 不 验证 EREI mE EGES| WE | E 
中 国 13768 76.9% | 88.0% | 88.096 | 94.0% | 94.496 | 94.896 
英国 6343 74.896 | 86.5% | 86.4% | 92.4% | 91.796 | 92.596 
朝鲜 2549 71.5% | 87.696 | 87.696 | 91.6% | 91.0% | 91.996 
北京 7661 76.396 | 90.196 | 90.0% | 94.6% | 94.996 | 95.296 
荆州 864 69.1% | 88.4% | 88.2% | 90.1% | 90.5% | 90.3% 
我 们 提出 了 一 种 基于 前 后 级 迭代 的 属性 名 称 获取 方法 , 语 料 来 源 于 非 结构 化 数据 源 。 方 


法 的 每 一 步 秋 代 分 为 两 个 


HX 


"n2 
DAS 


汇 -句法 模式 ， 从 Web 
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候选 属性 进行 验 ii 


F 以 扩充 现 有 
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牛 1E 


页 中 提取 候选 


A og 
To 3k 


区 
LK 


属性 ; 


是 从 现 有 属性 集合 中 选择 合适 的 前 后 
第 二 个 步骤 是 : 采用 基于 相似 怕 
表明 , 我 们 提出 的 基于 前 后 级 迭代 的 获取 


FH 


验 结果 


本 
3 My 


方法 得 到 的 初始 结果 也 


和 表 2 是 


经 过 一 轮 友 代 后 的 获取 结果 
表 2 qi 


有 较 高 的 准确 率 ， 
， 其 中 验证 


上 主体 类 概念 


经 过 验 1 
ANEN 
的 获取 结果 
准确 率 


zt 


ZH 


28 构造 词 


的 验证 模型 对 


正 后 ， 准 确 率 又 有 了 较 大 的 提升 。 表 1 


率 也 就 是 前 80% 结 果 的 准确 率 。 


不 验证 


置信 和 度 2 


置信 上 度 


置信 度 1 


3 | 前 向 


Ja f] 


中 石油 
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沃尔玛 
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2.2.3 因果 事件 发 现 和 推理 


最 初 的 因果 知识 获取 下 
E 
来 获取 因果 入 
表 性 工作 结果 。 


究 主要 借 


86 


能 适用 于 除 样 本 以 外 的 其 它 数据 。 为 克服 
HH, XE BdSdET SG E 


并 参照 手工 建立 的 领域 知识 库 来 完成 。 这 些 方法 


Bi T AR fm 
一 般 局 限于 特殊 领域 内 的 


.096 86.196 


92.696 


92.296 


92.896 


E (Knowledge-based Inference) 技术 ， 


ab Æ 


HAS 


期 工作 的 缺陷 , HERI 


E 


模式 的 方法 ， 表 3、4 给 出 了 


知识 ， 


至 不 


究 更 多 地 借 
因果 关 


助 语言 特征 
系 获 取 的 代 
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表 3 基于 统计 的 因果 关系 获取 的 代表 性 相关 工作 
代表 工作 统计 特征 统计 模型 知识 源 结果 
aX E i P(vi,v;) 封闭 语 料 — P:0.45 
论 元 共享 特征 Parg (n|vi), Parg’ (n|v2) 
EASE P(vi,v;) 封闭 语 料 P: 0.60 
引文 [32] 论 元 共享 特征 Parg(nlvi), Pag (n|v2) 
单个 动词 分 布 特征 P(vi) 
. k 现 特征 PMI(vi,v;) 电影 剧本 SRC: 
引文 [33] 时 序 特征 PS P0259) 0.497 
k 现 特征 PMI(vi,v;) 封闭 语 料 F: 0.60 
引文 [34] 时 序 特征 P(vi,v;) 
距离 特征 Distance(vi,v;) 


X4 基于 模式 的 因果 关系 获取 的 代表 性 相关 工作 
SHIT 分 类 器 知识 源 
图 模式 谓词 + 对 象 英文 领域 文本 
«NP, Verb NP?» 名 词 短语 英文 文本 
因果 动词 名 词 短语 英文 文本 
因果 连词 动词 短语 日 文 文本 


动词 对 动词 短语 泰语 文本 


我 们 提出 了 基于 网 络 查询 模式 的 因果 关系 抽取 方法 中 。 借 助 搜索 引擎 从 网 络 中 发 现 因 
果 关 系 , 将 因果 关系 抽取 任务 划分 为 以 下 两 个 子 任务 :(1) 因果 关系 的 识别 : 基于 表示 因果 
关系 的 网 络 查 询 模式 ， 从 网 络 中 抽取 相关 的 文本 。 查询 模 式 是 因果 知识 在 语言 中 表达 方式 的 
概括 和 抽象 , 包含 原因 事件 槽 和 结果 事件 槽 ， 以 及 它们 的 上 下 文 约束 ; (2) 因果 关系 的 提取 : 
从 查询 项 匹配 的 文本 中 提取 原因 事件 
和 结果 事件 , 它们 是 对 因果 事件 的 自然 ez: 老 师 批评 学 生 ez 学生 讨厌 老师 
语言 描述 。 一 般 来 说 , 封闭 文本 的 模式 À | 
匹配 过 程 就 是 权 信 的 提取 过 程 ;但 是 在 oppT ahmak Co YE 
面向 网 络 的 关系 提取 中 , 查询 项 匹配 是 EA AE 
借助 搜索 引擎 完成 的 , 因此 需要 划分 因 
末 事 件 的 边界 。 我 们 借助 于 依存 句法 分 。 es 妈妈 批评 孩子 相 亿 于。 孩子 讨厌 妈妈 
析 ， 从 语 料 中 获取 到 事件 五 元 组 E-(Pp。“” 个 、 LÓ 
S, O, M, C)， 即 谓词 (Predicate)、 主 体 
(Subject), %4% (Object), R4% 
(Modifier), 4M% (Complement) 五 图 2. 因果 关系 图 的 抽象 和 扩充 
元 组 。 


在 生成 因果 关系 图 之 后 , 我 们 又 进行 了 以 其 为 基础 的 知识 扩充 研究 。 理 想 的 因果 关系 图 
是 一 个 强 连 接 的 网 络 : 事件 之 间 关 联 紧密 ， 因 果 关 系 能 够 连接 成 因果 知识 链 。 但 实际 获取 到 
的 因果 关系 一 般 相 对 独立 。 这 是 因为 ， 许多 事件 的 发 生 具 有 偶然 性 ， 其 参与 的 因果 关系 较 少 ; 
其 次 由 于 抽取 模式 的 限制 以 及 语 料 的 稀 下 问 题 ， 导 致 天 失 了 一 些 关 系 。 因 此 ， 对 于 较 和 孤立 的 


(a) 初 始 知识 (b) 抽 象 知识 
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事件 , 我 们 希望 进 


大 规模 知识 处 理 与 应 用 进展 


相关 的 因果 知识 。 


的 因果 关系 扩充 更 多 的 关系 ， 如 图 2 所 示 。 
2.3 大 规模 知识 库 在 企业 智能 客服 中 的 应 用 


在 大 规模 知识 处 


理应 用 方面 ， 我 们 集中 


业 的 移动 、 


电信、 联通 


了 验证 。 


识 建 模 和 管理 ， 二 是 对 月 
为 可 供 计 算 机 操作 的 逻辑 表达 式 的 过 程 , 是 


接应 用 了 


更 多 的 应 | 


其 中 , 应 用 最 广泛 的 企业 智能 客服 系统 3 
日 户 咨询 的 自然 语言 


近年 来 , 我 们 已 经 将 大 规模 知识 库 、 知 识 管理 技术 、 语 义 分 析 技 


我 们 采 月 


昌 了 基于 类 比 学 习 的 方法 ,根据 已 有 


于 基于 大 规模 知识 库 的 企业 智能 客服 系统 研发 。 


术 的 研究 成 果 应 用 于 通信 行 


等 大 运营 商 的 数 个 省 公司 智能 客服 系统 中 
团 的 综合 信息 服务 、 某 大 型 IT 企业 的 计算 机 硬件 自助 排 障 服务 、 金 融 领 域 知 识 培训 和 客服 
流 大 数据 挖掘 、 面 向 特定 领域 的 精准 舆情 监控 等 应 用 中 , 对 大 规模 知识 处 理 的 研究 方法 进行 


语义 分 析 。 其 中 


， 以 及 中 国电 信和 集团 号 百 集 


图 3 所 示 。 


然 语言 处 理 


要 包括 两 大 模块 , 一 是 基于 本 体 理 论 的 企业 知 
FP, 语义 分 析 是 将 卓然 语言 分 析 成 
的 重要 目标 和 难题 , 可 以 进一步 直 


模糊 理解 
EXX 


企业 知识 库 管 理 


企 


统一 语义 分 析 服 务 接口 
引导 交互 容错 处 理 

自然 语言 深层 语义 分 析 
统计 决策 支持 管理 平台 
企业 知 


识 管理 与 加 工 平台 


业 知 识 库 建 模 


数据 库 ::COracle) 数据 库 :Oracle) 


EinuxAUnixANindows 服 务 器 


网 络 /服务 器 硬件 层 
安全 保障 层 


从 图 31 


可 以 看 日 


义 分 析 知 识 服务 是 不 
日 本 电信 


言 计算 机 公司 )、 


Hi 


A RI(NTT). 


能 问答 系统 ， 结 合 


f 究 和 产品 化 过 得 


略语 识别 技术 、 容 忍 形似 / 音 似 


D 


术语 识别 技术 、 


图 3.， 智能 客服 系统 的 体系 结构 


规模 知识 库 是 支撑 整个 系统 的 关键 资源 , 对 上 层 基于 自然 语言 语 
9。 除 此 之 外 ， 我 们 考察 了 Language Computer Corporation 〈 语 


台湾 中 下 
E» 解决 了 


普 别 字 的 分 词 技术 、 


院 的 ASQA 系统 等 多 个 语义 分 析 和 知 


Sa 
S 


Dp 


SEn 
Sem 
Sema 


自然 语言 理解 的 一 些 其 他 难题 ， 包括 缩 


用 户 意 图 模糊 到 
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简 / 别 /俗称 自动 识别 等 ， 满 足 了 实际 应 用 的 需要 。 


LE 解 技术 、 用 户 咨询 特征 
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除了 应 用 于 智能 客服 之 外 ,基于 本 体 理论 的 企业 知识 管理 也 逐渐 为 企业 决策 支持 、 人 员 


HER B 


培训 、 产 品 运营 、 精 确 营销 等 提供 越 来 越 多 的 支撑 。 


3 总 结 


者 和 展望 


近年 来 ， 我 们 在 大 规模 知识 表示 、 知 识 获 取 、 知 识 应 用 方面 进行 了 系统 的 研究 和 探索 ， 


取得 了 一 定 的 进展 。 本 文 对 相关 工作 做 了 一 个 简要 概括 性 的 说 明 。 我们 的 下 一 步 工 作 集中 于 


两 个 方面 : 一 是 


此 减少 知 让 
Wi", 即 常 
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